Estabilizando destilación on-policy para razonamiento MLLM Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente. 2026-06-09 · 2 min